data-science pytorch tensorflow-tutorials bert pytorch-tutorial bert-model tensorflow2 bert-pytorch bert-squad bert-fine-tuning huggingface-transformers Python

bert-base-uncased 预训练模型

来自 https://huggingface.co/bert-base-uncased/tree/main

人工智能-项目实践-预训练-Bert预训练模型fine-tune计算文本相似度.zip

Bert预训练模型fine-tune计算...运行 ./sentence_similarity_Bert/examples/run_classifier_modify2 进行fine-tune 训练数据集为蚂蚁金服文本匹配的数据在chinese_data文件夹内运行run_classifier_class进行测试

ChatGLM两代的部署/微调/实现：从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现

标签： ChatGLM-6B GLM LoRA微调

随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出，绝大部分公司的技术产品服务，以及绝大部分人的工作都将被革新一遍类似iPhone的诞生大家面向iOS编程有了App Store现在有了...

LLaMA的解读与其微调(含LLaMA 2)：Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙

标签： ChatGPT LLaMA 斯坦福Alpaca

还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)该项目部分一开始是作为此文《》的第4部分，但但随着研究深入为避免该文篇幅又过长，将把『第...

LLM高效参数微调方法：从Prefix Tuning、Prompt Tuning、P-Tuning V1/V2到LoRA、QLoRA(含对模型量化的解释)

标签：大模型微调方法 Prefix Tuning P-Tuning V1/V2

常规部分的正向传播由transformers所定义，而LoRA部分的正向传播则由LinearLayer_LoRA(nn.Module)的forward()所定义，即“LoRA层的两条分支结果进行加和”，如下图所示『一般用随机高斯分布初始化，当然实际代码实现...

【多模态】6、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型实现高效图文预训练

标签： AIGC 语言模型人工智能

本文主要介绍 BLIP-2

LLM - LLaMA-2 获取文本向量并计算 Cos 相似度

标签： llama hidden_states cos

基于 Cos 和 BERT-whitening 特征白化的大模型输出文本 Embeding 相似度评估。

Janus: Data-Centric MoE 通讯成本分析（2）

标签： Data-centric MoE TrafficAnalysis

在之前的blog中，我们学习了Janus的理论基础和模型搭建。通过以数据为中心的范式思路和巧妙的读取测略，Janus极大的减少了算法的通讯成本。本篇blog将从数学的角度定量解读Janus是如何降低通讯开销的。

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-2与Zero-shot Learning

标签：人工智能深度学习自然语言处理

GPT-2的不俗表现，证明它是一个极其优秀的预训练语言模型，虽然OpenAI并没有给出GPT-2微调后在各下游任务中的表现，但可以预期的是，其效果一定很好，在监督微调阶段的训练方式与第一代GPT并无差别。

详述BERT fine-tune 中文分类实战及预测

标签： BERT fine-tune 中文分类

这几天在研究bert fine-tune相关的知识，现在基本熟悉了，也踩了一些坑，记录一下，一是总结，二是备忘。 bert 的 finetune 主要存在两类应用场景：分类和阅读理解。因分类较为容易获得样本，以下以分类为例，做模型...

一文掌握文本语义分割：从朴素切分、Cross-Segment到阿里SeqModel

标签：文本语义分割 Cross-Segment SeqModel

之所以写本文，源于以下两点详见，但该系统也有个可选项，可以选择达摩院开源的语义分割模型：nlp_bert_document-segmentation_chinese-base考虑到在RAG中，embedding和文档语义分割、段落分割都是绕不开的关键点，...

MiniGPT-4本地部署的实战方案

标签： AIGC MiniGPT-4 本地部署

本文主要介绍了MiniGPT-4本地部署的实战方案，...2. 配置环境 2.1 安装虚拟环境 2.2 安装依赖库 3. 下载权重文件 3.1 下载Vicuna权重文件 3.2 下载MiniGPT-4权重文件 3.3 下载其他文件并修改源码 4. 运行MiniGPT-4

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

标签：人工智能深度学习自然语言处理

GPT-3曾经是最大、最让人惊艳也是最具争议的预训练语言模型。介绍GPT-3的论文长达72页，...与文章《》中介绍的GPT-2在Zero-shot Learning设置下的惊喜表现相比，GPT-3在Few-shot Learning设置下的性能足以震惊所有人。

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

标签：人工智能自然语言处理大语言模型

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

国产开源类ChatGPT模型，ChatGLM-6b初步微调实验

标签： chatglm chatgpt chatglm-6b

chatglm-6b微调/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu。

GPT系列：GPT, GPT-2, GPT-3精简总结 (模型结构+训练范式+实验)

标签： GPT GPT-2 GPT-3

GPT系列：GPT, GPT-2, GPT-3精简总结 (模型结构+训练范式+实验)

BLIP2-图像文本预训练论文解读

标签：深度学习 BLIP-2 跨模态

BLIP-2，基于现有的图像编码器预训练模型，大规模语言模型进行预训练视觉语言模型；BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间gap，第一阶段从冻结图像编码器学习视觉语言表征，第二阶段...

knockoutjs data-bind 声明式绑定整理

标签： knockoutjs data-bind

一、Visible绑定 1.功能　Visible绑定通过绑定一个值来确定DOM...div data-bind="visible: shouldShowMessage"> You will see this message only when "shouldShowMessage" holds a true value. div> scrip

【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

标签：多标签文本分类层次标签 MSML-BERT

2、多尺度特征抽取模块 3、多层级信息传播模块 4、层次化门控机制最后论文再总结一下，提出的模型在数据集上效果良好。【注一】：上述的四个创新名词，其实原理都比较简单。“多尺度特征抽取模块...

TF-IDF算法介绍及实现

标签： TF-IDF算法特征提取 Python3

（2） IDF是逆向文件频率(Inverse Document Frequency) （3）TF-IDF实际上是：TF * IDF 2、TF-IDF应用 3、Python3实现TF-IDF算法 4、NLTK实现TF-IDF算法 5、Sklearn实现TF-IDF算法 6、Jieba实现TF-IDF算...